图灵奖得主《Science》发文:人工智能飞速进步时代的风险管理
点击蓝字 关注我们
文章信息
Managing AI Risks in an Era of Rapid Progress人工智能飞速进步时代的风险管理
发表时间:2024年5月20日
参考来源: Science&清华大学交叉信息研究院&清华大学人工智能国际治理研究院作者:Yoshua Bengio等
导读
由三位图灵奖获得者(Yoshua Bengio、Geoffrey Hinton、Andrew Yao)、一位诺贝尔奖获得者(Daniel Kahneman)以及清华大学教授张亚勤、薛澜等来自美国、中国、欧盟、英国等国的十多位顶尖的人工智能技术和治理领域学者共同著作的文章 “Managing extreme AI risks amid rapid progress” 于2024年5月20日发表于美国《科学》杂志。
摘要
人工智能正在飞速进步,全球业界正大力投入生成式人工智能,让系统能够自主行动以实现目标。随着能力及自主性的提升,人工智能的威力可能突飞猛进,也带来包括危害社会、恶意滥用、以及超脱人类管控等种种危机。虽然学者们已发声提出警告,但他们对于该如何管控危机仍缺乏共识。社会上的反应也仅止于初步,跟不上许多专家已预见的颠覆性前景。“人工智能安全”的研究太滞后了。目前所见到的有关安全治理的提议,缺乏有效防范滥用的具体手段及机制,更没能针对强大的自主人工智能系统。文章概述了一个整体的规划:从加强科技研发与主动灵活的治理机制双管齐下,并借鉴从其他苛求安全的科技中汲取到的经验,力求做出充足的准备。
部分观点
技术研发的重新定向
我们需要研究突破来解决当前在创建具有安全和伦理目标的人工智能时面临的一些技术挑战。有些挑战不太可能通过简单地提高人工智能系统的能力就能解决[22,31–35]。这些挑战包括:
监督和诚实:能力更强的人工智能系统能够更好地利用监督和测试中的弱点[32,36,37]——例如,通过产生虚假但令人信服的输出[35,38]。
鲁棒性:人工智能系统在新情景中(在分布偏移或对抗输入下)的表现不可预测[34,39-40]。
可解释性:人工智能决策是不透明的。到目前为止,我们只能通过试错来测试大模型。我们需要学会理解它们的内部工作原理[41]。
风险评估:前沿人工智能系统发展出未预见的能力,这些能力只在训练期间甚至部署后才能发现[42]。需要更好的评估以更早地发现危害能力[43,44]。
应对新兴挑战:未来能力更强大的人工智能系统可能会表现出我们迄今仅在理论模型中看到的失败模式。例如,人工智能系统可能会学会假装服从,或利用我们的安全目标和关闭机制中的弱点来推进特殊的目标[24,45]。
考虑到这些风险,我们呼吁主要科技企业和公共资助者至少将其三分之一的人工智能研发预算用于确保安全性和合乎伦理的使用,这与他们对人工智能能力的投入相当。着眼于强大的未来系统来应对这些问题[34],必须成为我们领域的核心。
亟需实施的治理措施
我们急需国家机构和国际治理来执行标准,以防止鲁莽和误用。从制药,到金融系统,再到核能,许多技术领域都表明社会需要并有效地利用治理来降低风险。然而,目前人工智能还没有类似的治理框架。没有它们,企业和国家可能会为了寻求竞争优势,将人工智能的能力推向新的高度,同时在安全方面走捷径,或在几乎没有人类监督的情况下将关键的社会角色授权给人工智能系统[26]。就像制造商为了降低成本而向河流排放废弃物一样,他们可能会试图获得发展人工智能的回报,而让社会来应对后果。
为了跟上快速发展的步伐并避免僵化的法律,国家机构需要拥有强大的技术专长和迅速采取行动的权力。为了解决国际竞赛问题,它们需要促进国际协议和伙伴关系[46,47]。为保护低风险应用和学术研究,它们应避免对小型且可预测的人工智能模型设置不当的官僚障碍。最紧迫的审查应关注前沿人工智能系统:少数最强大的人工智能系统——这些系统是在价值数十亿美元的超级计算机上训练的——它们将具有最危险和不可预测的能力[48,49]。
为了实现有效监管,政府迫切需要全面了解人工智能的发展。监管机构应要求模型注册、举报人保护、事件报告以及模型开发和超级计算机使用监测,来了解前沿人工智能的发展[48,50–55]。监管机构还需要在部署之前访问先进人工智能系统,以评测它们是否具有诸如自主自我复制、侵入计算机系统、攻击性网络能力,或使流行病原体广泛传播之类的危险能力[43,56,57]。
对于具有危险能力的人工智能系统,我们需要与其风险大小相匹配的治理机制[48,52,59]的组合。监管机构应根据模型能力制定国家和国际安全标准。他们还应该让前沿人工智能的开发者和拥有者对其模型造成的、可以合理预见和预防的损害依法承担责任。这些措施可以防止伤害,并对于在安全方面进行投资创造急需的激励。对于未来能力异常强大的模型,需要采取进一步的措施,例如对于可能规避人类控制的模型。政府必须准备好对其开发进行许可、在出现令人担忧的能力时暂停开发,强制执行访问控制,并要求能够抵御国家级最高标准的信息安保措施,直到准备好足够的保护措施。
为了缩短法规出台的时间,主要人工智能企业应及时做出“如果-那么”承诺:如果在其人工智能系统中发现特定的红线能力,他们将采取具体的安全措施。这些承诺应详细并经过独立审查。
人工智能很可能是塑造本世纪的技术。虽然人工智能的能力正在迅速进步,但安全和治理方面的进展却滞后了。为了引导人工智能走向积极的结果并远离灾难,我们需要重新定向。如果我们有智慧选择,这里有一条负责任的道路。
如何获取更多信息?
原文链接
https://www.science.org/doi/10.1126/science.adn0117
参考来源: Science&清华大学交叉信息研究院&
清华大学人工智能国际治理研究院
时间:2024年5月
精彩推荐
研究速递|人为因素是生成式人工智能与人类合作成功的驱动因素
人工智能与管理:自动化-增强悖论
中法关于人工智能和全球治理的联合声明
研究速递 | Nature:人工智能和科学研究中的理解幻觉黎巴嫩推出世界第一位人工智能总统
欧盟发布《科研领域负责任使用生成式人工智能指南》
更多精彩内容